OVSS 論文リストに共通して出てくる問題

  • OVSS の本丸は結局、分類能力よりも dense localization の不足
    • ICCV 2025 の CorrCLIP、DIH-CLIP、Feature Purification Matters、Plug-in Feedback Self-adaptive Attention、CVPR 2026 の [[GLA-CLIP]]、PEARL はいずれも、CLIP の patch 表現や attention、局所相関、ウィンドウ間整合、幾何整合、後段伝播の改善に集中 している

繰り返し解決対象になっている問題点

  1. CLIPは分類には強いが画素・パッチレベルの局在性に欠ける
  2. training-free OVSSでは推論時に補正が必要になりやすい
  3. テキスト側の表現、特にプロンプトやテンプレート設計が不安定
  4. 追加モジュールへの依存をどう扱うか

繰り返し言われているが未だ未解決な点

  • 既存ベンチマークが本当にopen-vocabulary 性を測れているのか
  • CLIP-basedの手法の局在化の弱さ
  • training-freeの単純さと高精度の両立
  • 語彙の与え方の確立
  • 高精度な外部モデルに頼らない高精度セグメンテーション

各問題点の詳細

CLIP は分類には強いが画素・パッチレベルの局在性に欠ける

PEARLでは強力な事後学習やbackboneのモデルへの依存を批判しつつもalign-then-GLA-CLIPではpropagateという二段の推論を用いるsliding-window inferenceが生むウィンドウ間のsemantic discrepancyを扱っている DIH-CLIP は multi-head attention の冗長性 Feature Purification Matters は中間層の outlier 伝播 Plug-in Feedback Self-adaptive Attention は中間 attention と最終出力の不整合 CorrCLIP は patch correlation の再構成を課題に FreeCP は画像に存在しないクラスが多数候補に入る class redundancy と、意味の近いクラス間の visual-language ambiguity を問題に

繰り返し解決対象になっていはいるがなお統一的に解けてはいない 手法が乱立していて分野としてまだ「なぜCLIP 系 OVSSが密な予測タスクで崩れるのか」をひとつの原理で整理しきれていない

training-free OVSSでは推論時に補正が必要になりやすい

PEARL は、training-free 手法の多くが heavy post-processing に依存していたり、text と vision を別々に扱って cross-modal geometry を十分に使えていないと指摘 → 多くの論文が「再学習なしで使いたいが、そのままでは性能が足りず、推論時の整合や伝播、補正が必要になる」という共通問題を相手にしている

テキスト側の表現、特にプロンプトやテンプレート設計が不安定

FLOSS は、従来の「複数テンプレートを平均したクラス表現」が当然の前提になっていたが、実際には class ごとによりよい single-template classifier が存在すると述べている FreeCP はクラス冗長性と類似語彙の曖昧さを抑える必要を述べています Dual Semantic Guidance も、テキスト記述の意味バイアスが fine-tuning を難しくすると言っています Stepping Out of Similar Semantic Space は、既存データセットでは training space と test space の意味空間が近すぎるため、本当の open-vocabulary 理解を測れていないと批判

→ 多くの論文は画像特徴だけでなく、クラス名をどう文章化し、どの言語表現を使うとよいかも解くべき問題として扱っている。語彙が少し変わるだけで精度が変動するなら真に頑健とは言えない

追加 モジュールへの依存をどう扱うか

CorrCLIP は SAM を使って patch interaction の範囲を定めている Effective SAM Combination for OVSS (CVPR 2025) のように、SAM 連携そのものを主題にした論文も出ている

つまり、多くの研究が、CLIP 単体では足りないので、SAM などの外部 priors をどう組み込むかを解決対象に

既存 ベンチマークが本当にopen-vocabulary 性を測れているのか

Stepping Out of Similar Semantic Space は、既存 test set の semantic space が training space に近すぎると指摘して、新ベンチマーク OpenBench を出しています。 Auto-Vocabulary Semantic Segmentation も、固定語彙での正解ラベルと自動生成語彙とをどう比較するかが難しいため、LLM ベースの評価器を提案

は裏を返せば、OVSS では 評価対象そのものがまだ定まっていない ということです。既存ベンチマークでの mIoU 向上が、そのまま現実の open-world 理解の改善を意味するとは言いにくい状況

training-freeの単純さと高精度の両立

PEARL が heavy post-processing や multi-model pipeline を批判しているのが証拠 training-free は魅力的ですが、性能を上げようとすると補助モジュールや複雑な推論手順が増えやすい。つまり、本当に簡潔で、速くて、しかも強い training-free OVSS はまだ十分には確立されていない